package com.test12.jsoup;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.Test;

/*
 * 使用Jsoup快捷完成对爬来的网页数据进行提取
 * 总结：
 *    1.这里可以直接设置header，比如userAgent来完成服务器的防爬虫监测
 *    2.完美支持jquery，可以直接取到想要的东西
 */
public class Test01 {
	@Test
	public void test01(){
		// 直接从字符串中输入 HTML 文档
		String html = "<html><head><title> 开源中国社区 </title></head>"
				+ "<body><p> 这里是 jsoup 项目的相关文章 </p></body></html>"; 
		Document doc = Jsoup.parse(html); 
		
		Elements elements = doc.select("title");
		for (Element element : elements) {
			System.out.println(element.text());
		}
	}
	
	
	@Test
	public void test02() throws Exception{
		Document document = Jsoup.connect("http://blog.csdn.net/wangquannetwork")
				.userAgent(
						"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36")
				.get();
		
		Elements elements = document.select(".link_title");
		for (Element element : elements) {
			System.out.println(element.text());
		}
	}
}
